微生物多样性专题 | 扩增子测序分析实战（二）数据库整理之PR2 | 自由微信

查看原文

其他

微生物多样性专题 | 扩增子测序分析实战（二）数据库整理之PR2

2017-08-17 生信控

愿关注我们的人都能找到

属于自己的皮球

文：向屿 | 编辑：湖心

本文系原创转载需授权

微生物多样性专题

扩增子测序分析实战（二）

数据库整理之PR2

PR2数据库的文章2013年初发表在Nucleic Acids Research上，有兴趣的盆友可以看一下原文：https://www.ncbi.nlm.nih.gov/pubmed/23193267，针对18S测序分析上，该数据库算是比较公认且权威的数据库，但是我却一次都没打开过PR2数据库的官网：http://ssu-rrna.org/ ，所以就不能按照惯例粘主页的图了…实际上有没有主页不重要，只要能下到数据库的数据就行，哈哈~

PR2（Protist Ribosomal Reference database）数据库是专门针对真核生物小亚基SSU rRNA（即18SrRNA）基因的数据库。该数据库主要由原生生物序列构成，但为方便分析18S的高通量测序数据，数据库也包含了后生生物、陆地植物、大型真菌和真核细胞器（线粒体、质体等）的SSU序列，内含子和嵌合体序列已被去除。

PR2数据库其实一直在更新，最新数据可在https://figshare.com/articles/PR2_rRNA_gene_database/3803709下载，

这次有主页了：

数据最新更新日期为2017-01-21，点击Share【注意在Download边上】可以看到数据下载界面，如下：

点击Download all可以同事下载上面四个文件，但是直接下载pr2_gb203_version_4.5.zip即可~

解压后可见pr2_gb203_version_4.5.fasta【序列文件】和pr2_gb203_version_4.5.taxo【序列注释文件】，其中序列文件格式如下，不需要再做整理：

注释文件的格式如下：

每行注释信息分号隔开的列数的一致的，共8列，即8个水平的注释信息：

有没有看起来注释整齐又规范？动心了有木有，终于找到一个完美的18S数据库。但是！但是不可能没有问题的：

1，其注释信息中有很多后面接了N个_X的注释，表示当无法确切知道该分类水平的物种注释时，就在能确定的水平的注释后面加X，每增加一个分类水平，相应的增加一个X；【虽然看起来整齐了，但对分类来说，个人觉得没什么实际意义】

2，物种注释信息里并非全是上示8个分类水平的，会穿插一些其他水平或no rank的注释，例如上面的Alveolata，在NCBI上检索会发现，它是no rank：

我们在后续注释时不会保留no rank的物种，而只保留界门纲目科属种这7个分类水平的注释，同样，基于Tax_Rank_Annotation文件【详见数据库整理之 taxdmp】，对该数据库进行整理，准确识别物种名称并添加rank信息，结局些许的不乐观：

经过统计，属种水平有注释的序列分别占总序列数(178094)的35%和42%。

最后还需要提到的是序列id的含义，如 GU824834.1.1056_U，可知该序列的accession号是GU824834，1和1056为序列的起始位置和终止位置，而末尾的U则表示未描述该序列是否包含内含子，以下是详细描述：

”FAN某”的离婚财产分割判决书（全文）

”FAN某”的离婚财产分割判决书（全文）

公益慈善｜“翼行天下一生守护”慈善项目捐赠仪式圆满举行！

哈里斯女粉搞4B运动、毒杀丈夫，回旋镖能否让美国“血流成河”

比国产光刻机更重要的IPO要来了！